Tile
=================

沿着指定的维度 ``tile_dim``，将输入张量的基础块重复平铺 ``tile_num`` 次。该算子通过“加倍拷贝法”利用 DMA 传输实现高效的数据复制。

.. math::

   \text{对于输入张量，其在维度 } tile\_dim \text{ 及其之后维度的连续块大小为 } stride \text{ 个元素。} \\
   \text{算子将该块在输出中连续复制 } tile\_num \text{ 次，构造出平铺后的维度效果。}

输入：
    - **input** - 输入张量数据地址。
    - **output** - 输出张量数据地址。
    - **input_shape** - 输入张量的形状数组地址。
    - **tile_dim** - 执行平铺操作的维度索引（0 到 ndim-1）。
    - **tile_num** - 在指定维度上平铺的次数。
    - **stride** - 平铺块的长度。通常定义为从 ``tile_dim`` 维度到最后一个维度所有形状值的乘积。
    - **core_mask(int, 可选)** - 核掩码（仅适用于共享存储版本）。

输出：
    - **output** - 填充后的平铺结果地址。

支持平台：
    ``FT78NE``  
    ``MT7004``

.. note::
    - FT78NE 支持 int8, int16, int32, fp32, fp64, cplx64, cplx128  
    - MT7004 支持 fp16, fp32, int16, int32, cplx64  
    - 对于复数类型（cplx64/cplx128），``stride`` 依然表示复数元素的个数，算子内部会自动处理双倍宽度的内存拷贝。
    - 算子内部使用 DMA 传输，能够有效提升 DDR 到 DDR 的拷贝效率。

**共享存储版本:**

.. c:function:: void i8_tile_s(int8_t* input, int8_t* output, int *input_shape, int tile_dim, int tile_num, int stride, int core_mask)
.. c:function:: void i16_tile_s(int16_t* input, int16_t* output, int *input_shape, int tile_dim, int tile_num, int stride, int core_mask)
.. c:function:: void i32_tile_s(int32_t* input, int32_t* output, int *input_shape, int tile_dim, int tile_num, int stride, int core_mask)
.. c:function:: void hp_tile_s(half* input, half* output, int *input_shape, int tile_dim, int tile_num, int stride, int core_mask)
.. c:function:: void fp_tile_s(float* input, float* output, int *input_shape, int tile_dim, int tile_num, int stride, int core_mask)
.. c:function:: void dp_tile_s(double* input, double* output, int *input_shape, int tile_dim, int tile_num, int stride, int core_mask)
.. c:function:: void c64_tile_s(float* input, float* output, int *input_shape, int tile_dim, int tile_num, int stride, int core_mask)
.. c:function:: void c128_tile_s(double* input, double* output, int *input_shape, int tile_dim, int tile_num, int stride, int core_mask)

    **C调用示例：**

    .. code-block:: c
        :linenos:
        :emphasize-lines: 14

        // FT78NE 示例：多核并行平铺
        #include <stdio.h>
        #include "78NE/utils.h"

        int main() {
            float *input = (float *)0xA0000000;
            float *output = (float *)0xB0000000;
            int input_shape[] = {16, 20, 16, 24};
            int tile_dim = 2;
            int tile_num = 10;
            int stride = 16 * 24; // tile_dim[2]*input_shape[3]
            int core_mask = 0b1011; 

            fp_tile_s(input, output, input_shape, tile_dim, tile_num, stride, core_mask);
            return 0;
        }


**私有存储版本:**

.. c:function:: void i8_tile_p(int8_t* input, int8_t* output, int *input_shape, int tile_dim, int tile_num, int stride)
.. c:function:: void i16_tile_p(int16_t* input, int16_t* output, int *input_shape, int tile_dim, int tile_num, int stride)
.. c:function:: void i32_tile_p(int32_t* input, int32_t* output, int *input_shape, int tile_dim, int tile_num, int stride)
.. c:function:: void hp_tile_p(half* input, half* output, int *input_shape, int tile_dim, int tile_num, int stride)
.. c:function:: void fp_tile_p(float* input, float* output, int *input_shape, int tile_dim, int tile_num, int stride)
.. c:function:: void dp_tile_p(double* input, double* output, int *input_shape, int tile_dim, int tile_num, int stride)
.. c:function:: void c64_tile_p(float* input, float* output, int *input_shape, int tile_dim, int tile_num, int stride)
.. c:function:: void c128_tile_p(double* input, double* output, int *input_shape, int tile_dim, int tile_num, int stride)

    **C调用示例：**

    .. code-block:: c
        :linenos:
        :emphasize-lines: 12

        // MT7004 示例：单核私有空间平铺
        #include <stdio.h>

        int main() {
            float *input = (float *)0x10000000;
            float *output = (float *)0x10010000;
            int input_shape[] = {4, 10, 8, 12};
            int tile_dim = 2;
            int tile_num = 5;
            int stride = 8 * 12; 

            fp_tile_p(input, output, input_shape, tile_dim, tile_num, stride);
            return 0;
        }